Posted 2025-11-19Updated 2025-11-25Artificial Intelligence37 minutes read (About 5546 words)

Multimodel RL Next

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

多模态理解模型+RL井喷

GRPO出现之后，基于GRPO及其变种(DAPO、VAPO)井喷出一系列模型。[^1]

RL算法趋势

在强化学习（RL）的应用中，特别是在多模态大语言模型（MLLMs）的理解能力增强中，常常提到两种主要的RL训练范式：价值模型无关的方法（value-model-free methods）和价值模型相关的方法（value-model-based methods）[^1]。这两种方法的主要区别在于它们是否依赖于价值函数的显式建模。

价值模型无关的方法

（value-model-free methods）这类方法不依赖于价值函数或者模型来估计未来奖励。它们直接通过策略梯度（policy gradient）来优化策略，即通过直接评估策略（policy）对应的行为（action）的概率分布，并根据奖励信号来调整这个分布。这种方法的代表算法是Group Relative Policy Optimization (GRPO)[^11]。

GRPO：在GRPO中，策略的更新不依赖于价值函数的估计，而是通过比较组内不同的输出响应（samples）来计算优势函数（advantage function），然后基于这个优势函数来更新策略。这种方法的优势在于实现简单，不需要额外的价值模型训练，能够稳定地进行策略优化。

下表的主体内容来自^14:

Method	Year	Objective Type	Clip	KL Penalty	Key Mechanism	Signal	Link	Resource
*GRPO family*
GRPO	2025	Policy gradient under group-based reward	Yes	Yes	Group-based relative reward to eliminate value estimates	Group-based reward	Paper	-
DAPO	2025	Surrogate of GRPO’s	Yes	Yes	Decoupled clip + dynamic sampling	Dynamic group-based reward	Paper	Code Model Website
GSPO	2025	Surrogate of GRPO’s	Yes	Yes	Sequence-level clipping, rewarding, optimization	Smooth group-based reward	Paper	-
GMPO	2025	Surrogate of GRPO’s	Yes	Yes	Geometric mean of token-level rewards	Margin-based reward	Paper	Code
ProRL	2025	Same as GRPO’s	Yes	Yes	Reference policy reset	Group-based reward	Paper	Model
Posterior-GRPO	2025	Same as GRPO’s	Yes	Yes	Reward only successful processes	Process-based reward	Paper	-
Dr.GRPO	2025	Unbiased GRPO objective	Yes	Yes	Eliminate bias in optimization	Group-based reward	Paper	Code Model
Step-GRPO	2025	Same as GRPO’s	Yes	Yes	Rule-based reasoning rewards	Step-wise reward	Paper	Code Model
SRPO	2025	Same as GRPO’s	Yes	Yes	Two-staged history-resampling	Reward	Paper	Model
GRESO	2025	Same as GRPO’s	Yes	Yes	Pre-rollout filtering	Reward	Paper	Code Website
StarPO	2025	Same as GRPO’s	Yes	Yes	Reasoning-guided actions for multi-turn interactions	Group-based reward	Paper	Code Website
GHPO	2025	Policy gradient	Yes	Yes	Adaptive prompt refinement	Reward	Paper	Code
Skywork R1V2	2025	GRPO with hybrid reward signal	Yes	Yes	Selective sample buffer	Multimodal reward	Paper	Code Model
ASPO	2025	GRPO with shaped advantage	Yes	Yes	Clipped bias to advantage	Group-based reward	Paper	Code Model
TreePo	2025	Same as GRPO’s	Yes	Yes	Self-guided rollout, reduced compute burden	Group-based reward	Paper	Code Model Website
EDGE-GRPO	2025	Same as GRPO’s	Yes	Yes	Entropy-driven advantage + error correction	Group-based reward	Paper	Code Model
DARS	2025	Same as GRPO’s	Yes	No	Multi-stage rollout for hardest problems	Group-based reward	Paper	Code Model
CHORD	2025	Weighted GRPO + SFT	Yes	Yes	Auxiliary supervised loss	Group-based reward	Paper	Code
PAPO	2025	Surrogate of GRPO’s	Yes	Yes	Implicit Perception Loss	Group-based reward	Paper	Code Model Website
Pass@k Training	2025	Same as GRPO’s	Yes	Yes	Pass@k metric as reward	Group-based reward	Paper	Code
CPPO	2025	Same as GRPO’s	Yes	Yes	Completion Pruning	Group-based reward	Paper

CPPO 通过分析发现，并不是所有的完成对于策略训练都有相同的贡献，其贡献程度与它们的相对优势有关。因此，CPPO 提出了一种基于绝对优势的完成剪枝策略，大幅减少了梯度计算和更新所需的完成数量。

价值模型相关的方法

与价值模型无关的方法不同，价值模型相关（value-model-based methods）的方法会估计一个价值函数来预测未来的累积奖励。这种方法通常会结合价值函数和策略梯度来更新策略，能够提供更为精确的奖励估计，从而优化策略。代表性的算法包括Proximal Policy Optimization (PPO)[^7]。

PPO：PPO是一种结合了价值函数和策略梯度的算法。它通过优化一个代理的价值函数来估计当前策略下的状态值，并结合这个价值估计来更新策略。PPO的关键在于通过一个辅助的价值函数来稳定训练过程，并提高训练的样本效率。

下表的主体内容来自^14:

Method	Year	Objective Type	Clip	KL Penalty	Key Mechanism	Signal	Link	Resource
*PPO family*
PPO	2017	Policy gradient	Yes	No	Policy ratio clipping	Reward	Paper	-
PF-PPO	2024	Policy gradient	Yes	Yes	Policy filtration	Noisy reward	Paper	Code
VinePPO	2024	Policy gradient	Yes	Yes	Unbiased value estimates	Reward	Paper	Code
PSGPO	2024	Policy gradient	Yes	Yes	Process supervision	Process Reward	Paper	-
ORZ.	2025
VC-PPO.	2025
VAPO	2025	Policy gradient	Yes	Adaptive	Adaptive KL penalty + variance control	Reward + variance signal	Paper	-

两种方法各有优势，适用于不同的场景和任务。价值模型无关的方法通常更加简单直接，适合于那些难以建模价值函数的复杂任务。而价值模型相关的方法则在奖励信号较为稀疏或者需要更精确的奖励预测时表现出色，能够更有效地引导模型学习。在实际应用中，选择哪种方法往往取决于具体任务的特性、可用数据的质量以及计算资源的限制。

[^16]

当前应用：GRPO-family一家独大

注：

online policy mirror descent (OPMD) 基于2021的Mirror Descent Policy Optimization一文。
RLOO 是2024年提出的PPO算法的变种[^15]
统计：GRPO 30；RLOO 2；OPMD 2；PPO 1；GRPO变种(GRPO-SSB、Fast-GRPO、T-GRPO、GRPO-SSR、GRPO-D、StepGRPO、GFlowNet、GRPO&PTST) 各一个

多模态理解

在强化学习增强多模态大语言模型（MLLMs）的理解能力方面，存在一些核心挑战，这些挑战指向了未来研究的三个主要方向：稀疏奖励（sparse rewards）、不高效的跨模态理解（inefficient cross-modal reasoning）以及现实世界部署约束（real-world deployment constraints）[^1]。以下是对这三个方向的解释：

避免稀疏奖励

问题描述：在RL中，稀疏奖励（Sparse Rewards）指的是奖励信号不频繁或者只在任务完成时(结果奖励机制 ORM)才提供反馈，这会导致模型难以从少数的奖励信号中学习到有效的策略。在多模态理解任务中，稀疏奖励使得模型难以区分哪些行为是积极的，哪些是消极的，从而难以优化其理解策略。

未来方向：为了解决稀疏奖励的问题，未来的研究可能会集中在以下几个方面：

奖励分解：将复杂任务分解为多个子任务，并为每个子任务提供密集的奖励信号，以便模型能够更容易地学习到正确的行为。
- 过程导向奖励机制（Process Reward Mechanisms）可以被视为一种奖励分解的实现方式。过程导向奖励机制强调评估和奖励模型在推理过程中的中间行为，而不仅仅是最终结果的正确性。这种方法可以帮助模型更好地学习到解决问题的正确步骤，从而提高推理能力。例如，在多模态推理任务中，模型可能会被奖励为生成逻辑连贯的推理步骤，而不仅仅是给出正确的最终答案。
奖励共享：在多任务学习中，允许不同任务之间共享奖励信号，以增加奖励的频率和多样性。
分层奖励建模：开发更复杂的奖励模型，能够在不同的抽象层次上提供奖励，从而引导模型进行更深层次的学习。
- curriculum reinforcement learning（课程强化学习）也与奖励分解相关。这种方法通过逐步增加任务难度，让模型先从简单的任务开始学习，然后逐步过渡到更复杂的任务。这样的训练策略可以看作是对奖励分解的一种实现，其中每个课程阶段都可以为模型提供更密集的反馈和奖励信号。

这点在Agent RL里体现的更明显

更高效的跨模态理解

问题描述：（Inefficient Cross-Modal Reasoning）

跨模态理解涉及到整合和协调来自不同感官通道（如文本、图像、音频和视频）的信息。当前的MLLMs在处理跨模态数据时可能会效率低下，因为它们需要理解和融合来自不同模态的复杂信息。
多模态超越文本的挑战：与纯文本数据相比，多模态数据的质量和数量不足，导致模型在视频内容的对齐上表现不佳。

未来方向：为了提高跨模态理解的效率，未来的研究可能会探索以下策略：

多模态融合技术

开发更有效的多模态融合机制，以便更好地整合和协调不同模态的信息。

利用强化学习从人工智能反馈（RLAIF[^6]）中获取多模态对齐的新方法：
其中上下文感知的奖励模型（Context-Aware Reward Modeling）：通过将视频细分成多个片段，并为每个片段生成详细的描述，然后将这些描述整合到奖励模型中，以提供更清晰的视频内容理解。

视觉引导理解链MM-CoT

利用视觉信息来引导和构建理解链，提高理解过程中的逻辑连贯性和效率。

[^1]

视觉决策领域：Praxis-VLM[^18]通过文本驱动的强化学习就能实现了复杂的视觉决策能力。文本驱动的推理学习：Praxis-VLM 通过文本描述的情境学习推理能力，这表明推理和决策能力可以在没有直接多模态经验的情况下通过语言表示学习。

视觉搜索(Retrieval-Augmented Generation, RAG)领域：Mini-o3[^17]通过构建 Visual Probe 数据集、采集冷启动数据和引入 over-turn masking 策略(鼓励更多轮回答) 来提升基于图像的工具使用和推理能力，能够在测试时自然扩展到数十个回合，从而在挑战性的视觉搜索任务中实现最先进的性能。阿里VRAG-RL [^20]

轻量级RL框架

设计更加轻量级的RL框架，以减少计算资源的消耗，并提高模型在处理跨模态任务时的响应速度。

去掉一些基座仓，在RL为主的仓里VeRL是增长最快的(微软的Agent Lightning势头很强)

多模态生成

DPO-family

基于偏好的强化学习方法，称为 Reward Preference Optimization (RPO)，用于主题驱动的文本到图像生成任务，通过引入 λ-Harmonic 奖励函数和 Bradley-Terry 偏好模型，实现了有效的模型训练和早停，提高了图像生成的质量和效率。[^9]

Improving Video Generation with Human Feedback[^21]构建一个大规模的人类偏好数据集，引入一个多维度视频奖励模型（VideoReward），并提出了三种对流基础的视频对齐算法（Flow-DPO、Flow-RWR 和 Flow-NRG），以提高视频生成的视觉质量、运动质量和文本对齐。

GRPO-family

DanceGRPO[^22] 的框架，它通过适应 Group Relative Policy Optimization (GRPO) 算法来提高视觉生成任务的性能，特别是在文本到图像、文本到视频以及图像到视频的生成任务中。相对于之前的DPO方法有提升。

MixGRPO[^23] 通过在滑动窗口内使用 SDE 采样和 GRPO 引导优化，在窗口外使用 ODE 采样，减少了优化的复杂度和训练时间。实验结果表明，与 DanceGRPO 相比，MixGRPO 在多个人类偏好对齐的维度上获得了显著的性能提升，并且在训练时间上减少了近 50%，而 MixGRPO-Flash 变体进一步减少了 71% 的训练时间。

ODE 与 SDE 的采样策略

在扩散模型中，生成图像的过程可以看作是从噪声逐步去噪得到清晰图像。这个过程可以用两种数学工具描述：

ODE（常微分方程）：确定性过程。给定一个初始噪声，每一步去噪都是确定的、可重复的。优点是稳定、计算效率高；缺点是缺乏探索性，容易陷入局部最优。
SDE（随机微分方程）：随机过程。每一步去噪都加入一点随机扰动，使得路径更多样。优点是能更好地探索不同生成路径，有助于优化对人类偏好的拟合；缺点是计算开销大、训练不稳定。

MixGRPO 的“混合”策略：

在 滑动窗口内（比如最后几步去噪过程），使用 SDE：因为这些步骤对最终图像质量影响最大，需要精细优化和更强的探索能力。
在 窗口外（早期去噪步骤），使用 ODE：因为早期步骤相对粗糙，用确定性过程更快、更省资源。

这就像“抓大放小”：关键步骤精细调优（用 SDE + RL 优化），非关键步骤快速跳过（用 ODE 生成）。

滑动窗口优化调度器（Sliding Window Optimization Scheduler）

想象你有一个长度为 T 的去噪过程（比如 T=1000 步）。传统 GRPO 方法会在 所有 T 步都进行强化学习更新，计算代价极高。

滑动窗口调度器的做法是：

只在一个 动态移动的小窗口（比如最近的 10 步）内进行 策略梯度更新（即用人类反馈信号优化模型）。
窗口之外的步骤只做 前向生成（用 ODE 快速采样），不更新参数。

这样做的好处：

大幅减少训练开销：只优化最关键的几步。
保持生成质量：因为人类偏好主要体现在图像细节上，而细节在去噪后期才显现。

类比理解（通俗版）

想象你在画一幅油画：

传统 GRPO：每画一笔（哪怕只是打底色）都要请专家评审，反复修改，非常慢。
MixGRPO：前期打草稿时自己快速画（ODE，不请专家），只在最后精细刻画人脸、光影时才请专家指导并反复调整（SDE + GRPO 优化）。这样又快又好。

Flow-GRPO[^19] 的方法，用于通过在线强化学习（RL）改进流匹配模型，特别是在文本到图像（T2I）生成任务中。该方法通过将确定性的常微分方程（ODE）转换为具有相同边缘分布的随机微分方程（SDE）来引入随机性，并通过减少训练过程中的去噪步骤来提高训练效率。实验结果表明，Flow-GRPO 在复合图像生成、视觉文本渲染和人类偏好对齐任务上都取得了显著改进，同时几乎没有导致奖励黑客行为。（ps: 说实话我怎么觉得就是引入噪声后择优选一个）